رویکردی با ناظر در استخراج واژگان کلیدی اسناد فارسی با استفاده از زنجیره‌های لغوی

نویسندگان

چکیده مقاله:

Keywords are the main focal points of interest within a text, which intends to represent the principal concepts outlined in the document. Determining the keywords using traditional methods is a time consuming process and requires specialized knowledge of the subject. For the purposes of indexing the vast expanse of electronic documents, it is important to automate the keyword extraction task. Since keywords structure is coherent, we focus on the relation between words. Most of previous methods in Persian are based on statistical relation between words and didn’t consider the sense relations. However, by existing ambiguity in the meaning, using these statistic methods couldn’t help in determining relations between words. Our method for extracting keywords is a supervised method which by using lexical chain of words, new features are extracted for each word. Using these features beside of statistic features could be more effective in a supervised system. We have tried to map the relations amongst word senses by using lexical chains. Therefore, in the proposed model, “FarsNet” plays a key role in constructing the lexical chains. Lexical chain is created by using Galley and McKeown's algorithm that of course, some changes have been made to the algorithm. We used java version of hazm library to determine candidate words in the text. These words were identified by using POS tagging and Noun phrase chunking. Ten features are considered for each candidate word. Four features related to frequency and position of word in the text and the rest related to lexical chain of the word. After extracting the keywords by the classifier, post-processing performs for determining Two-word key phrases that were not obtained in the previous step. The dataset used in this research was chosen from among Persian scientific papers. We only used the title and abstract of these papers. The results depicted that using semantic relations, besides statistical features, would improve the overall performance of keyword extraction for papers. Also, the Naive Bayes classifier gives the best result among the investigated classifiers, of course, eliminating some of the features of the lexical chain improved its performance.  

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

اثر بربرین در تنظیم آستروسیتهای Gfap+ ناحیه هیپوکمپ موشهای صحرایی دیابتی شده با استرپتوزوتوسین

Background: Diabetes mellitus increases the risk of central nervous system (CNS) disorders such as stroke, seizures, dementia, and cognitive impairment. Berberine, a natural isoquinolne alkaloid, is reported to exhibit beneficial effect in various neurodegenerative and neuropsychiatric disorders. Moreover astrocytes are proving critical for normal CNS function, and alterations in their activity...

متن کامل

اثر بربرین در تنظیم آستروسیتهای Gfap+ ناحیه هیپوکمپ موشهای صحرایی دیابتی شده با استرپتوزوتوسین

Background: Diabetes mellitus increases the risk of central nervous system (CNS) disorders such as stroke, seizures, dementia, and cognitive impairment. Berberine, a natural isoquinolne alkaloid, is reported to exhibit beneficial effect in various neurodegenerative and neuropsychiatric disorders. Moreover astrocytes are proving critical for normal CNS function, and alterations in their activity...

متن کامل

استخراج خودکار عبارتهای کلیدی از متون مقاله‌های فارسی

در پژوهش حاضر، عبارتهای کلیدی از متون مقاله‌های فارسی به صورت خودکار جداسازی گردیده است. استخراج عبارتها مبتنی بر روشهای آماری، نحوة توزیع واژگان، مجاورت و ... صورت پذیرفته است. سیستمی که بر پایه پژوهش حاضر طراحی گردیده، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، به گونه‌ای که در طول زمان مرتباً به کارایی آن افز...

متن کامل

تدوین فهرست واژگان پایه برای زبان فارسی: رویکردی تلفیقی

بخشی از سرمایه­ی زمانی فراگیران زبان فارسی به یادگیری واژگان فارسی اختصاص داده می­شود. برای ­این که این سرمایه­گذاری، بیشترین بازگشت سرمایه را در پی داشته باشد، لازم است محتوای آموزشی به گونه­ای طراحی شود که مبتنی بر واژگان پرکاربرد موجود در قالب فهرست واژگان پایه باشد. برای تدوین فهرست واژگان پایه‌ی فارسی، ضروری است مفهوم «واژه» مطابق با انگاره­ی ذهنی گویشوران عادی این زبان تعریف شود تا بتوان ...

متن کامل

استخراج بی ناظر ظرفیت فعل در زبان فارسی

ظرفیت کلیدی ترین مفهوم در دستور وابستگی است. از میان مقوله های واژگانی گوناگون، فعل ها دارای کلیدی ترین نقش در نحو و معنای جمله طبق دستور وابستگی هستند. فعل مرکزیت جمله را در دستور وابستگی بر عهده داشته و معنای اصلی جمله را در درون خود نهان می کند. در این مقاله با بررسی روش های مختلف استخراج بی ناظر ظرفیت فعل در زبان فارسی، مسائلی پیرامون یافتن فعل در متون زبانی و ابهامات موجود در شناخت ظرفیت ف...

متن کامل

ارائه رویکردی برای مدیریت و سازمان‌دهی اسناد متنی با استفاده از تجزیه‌وتحلیل هوشمند متن

Regarding the fact that stored data occupies a large space in organizations and retention systems and information management that has been resulted in gigantic data warehouses, the need for extracting an appropriate model is felt increasingly. Text mining is one of the most significant methods for extracting a useful and appropriate model that helps organizations in achieving their goals throug...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 15  شماره 4

صفحات  95- 110

تاریخ انتشار 2019-03

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

کلمات کلیدی

کلمات کلیدی برای این مقاله ارائه نشده است

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023